[2023年4月19日号]個人的に気になったModern Data Stack情報まとめ
さがらです。
Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。
そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。
※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。
Modern Data Stack全般
Zero-ETL, ChatGPT, And The Future of Data Engineering
Monte CarloのCEO兼Co-FounderのBarr Moses氏により、「Zero-ETL」「One Big Table and Large Language Models」 「Data product containers」によりModern Data Stackがどう変わっていくかの私見をまとめた記事が出ていました。
The Next Big Crisis for Data Teams
Monte CarloのCEO兼Co-FounderのBarr Moses氏により、「Modern Data Stackを始めとしたテクノロジーだけを採用して”データドリブンな組織になる”なんてこと言ってないで、データチームはデータの消費者に歩み寄って実際のビジネスの近づいていこう ※私の意訳強めです。」ということについてまとめられた記事が出ていました。
日本のデータ基盤界隈でもよく聞く話ですが、データ基盤は作って終わりではなく、実際のビジネスに貢献してこそ価値を生み始めます。 Modern Data Stackを始めとしたテクノロジーの進歩により、ここ数年でデータ基盤を構築するための運用コストはぐっと下がっていますが、改めてデータ基盤の構築によりビジネスに貢献していくことの重要性を感じた記事でした。
Why Data Debt Is the Next Technical Debt You Need to Worry About
Fujitsu社でData & AI Product LeaderのDiogo氏により、Data Debt(データ負債)が発生する原因と防ぐための注意喚起の記事が出ていました。
上述の「The Next Big Crisis for Data Teams」とも関連してきますが、データ基盤は一度作って終わりではなく、価値を生み出す(影響力のある)ユースケースに注力し、その価値を生み出すために品質やガバナンスを担保していくことが重要です。
(私見ですが、米国ではすでにData Stackを構築している企業が多いので、こういったデータ基盤の運用や価値に関する情報が多いのかな…とふと感じました。)
The Future of Data: Top 6 Trends of 2023
Monte CarloのField CTOであるShane Murray氏が、2023年のデータに関するトレンドについて述べる動画が出ていました。
以下の6つのトレンドについて述べられており、かつ7分27秒と短く簡潔にまとまった動画のため、ぜひご覧ください。
- Data Contracts
- Semantic Layer
- Data Observability
- The Death of the CDP
- Data Lakehouse
- Data Mesh
Data Contractsに関する調査記事
@soonraahさんにより、Data Contractsに関して調査内容をまとめた記事が投稿されていました。
ちょうど上述の内容でも出てきた、Data Contractsです!
データ基盤ではアプリケーションのデータを蓄積することが多いと思いますが、その際にアプリケーション側の急な仕様変更でデータ基盤上のスキーマやパイプラインが壊れてしまうことがあります。こんなときに、データの送り手であるアプリケーション開発側と、データの受け取り手であるデータ基盤側の間で、合意した契約を遵守することにより、データ基盤側のパイプラインが壊れないようにしようね、というのがData Contractsです。
この問題はどんなデータ基盤であっても起こりうる問題だと思いますので(私も前職で実際に経験済)とても参考になる記事でした。
Meta社におけるデータエンジニアリングの変化と課題をまとめた記事
Meta社により、Data IntegrationからAccessible Analyticsへと変化してきたMeta社におけるデータエンジニアリングの変遷と、実際にMeta社が直面したメタデータやビジネスロジックの管理などに関する課題をまとめた記事がでていました。
本記事はPart 1なので、Part 1で提示された課題についてMeta社がどう対処してきたかはPart 2で記されるはずです。楽しみですね!
Datafold社によるデータパイプライン全体&各プロセスでのテストについてのまとめ記事
Datafold社が、データパイプラインを構築した際、各プロセスでのテストをどうやって行うかをまとめた記事を出していました。
ただ、各プロセスでどういったテストが出来るかの概要だけでなく、
- ETLからELTへの変化やSemantic Layerの登場によりデータ変換のレイヤー(dbtなど)でテストを統合出来るようになってきている
- dbtがデータ抽出含む高度なスケジューリングを持ったらAirflowなどのオーケストレーターを追加する魅力がなくなるのではないか
など、今後のデータパイプライン構築において考えられる未来も書かれていたのが印象的でした。
Semantic Layer Summitが2023年4月26日(現地時間)に開催予定
Semantic Layerのプロダクトを開発するAtscale社主催で、Semantic Layer 2023が開催されます。
Data Warehouse界隈では非常に有名なBill Inmon氏を始め、登壇者も非常に豪華です!
Data Extract/Load
Airbyte
Airbyte APIのリリースと参考事例
先日、Airbyte APIがPublic Betaとしてリリースされました。これは、Airbyte自体の操作をAPIを介して行うことが出来るようになるAPIです。
このAirbyte APIを使った事例をまとめたブログも出ていました。記事ではAirbyte APIを介した接続設定や、カスタムコネクタの作成を行っております。
Data Warehouse/Data Lakehouse
全般
Airbyte社によるSnowflakeとRedshiftの比較記事
みんな大好き(?)Data Warehouse製品の比較記事がAirbyteから出ていました。こちらではSnowflakeとRedshiftを比較しております。比較項目を列挙した上で各製品がどう対応しているかを広く述べており、この2つのData Warehouseの大まかな違いを理解するには役立つと思います。
Snowflake
Search OptimizationとQuery Accelerationが連携できるように
SnowflakeのSearch Optimizationというある任意のレコードを取得する際のクエリを高速化させる機能と、Query Accelerationという使用しているウェアハウスがクエリ実行にスペックが足りないと判断した時に別のコンピュートリソースを使うことが出来る機能が、ある一つのクエリに対して両立して機能するようになりました。
Snowflakeで継続的なロードを行えるSnowpipeに関するノウハウが詰まった記事
@pei0804さんにより、Snowpipeを本番導入する前に読むべき実践的なノウハウが詰まった記事が投稿されていました。
Snowpipeを使うユースケースとしても多いであろうJSONL形式のファイルについてどのようにテーブルとPipeの定義をするかについて具体的なクエリと併せて述べられており、これだけでなくトラブルシューティング・監視・エラー通知に関するノウハウもまとめられています。
REVISIO株式会社のエンジニアによりRedshiftからSnowflakeへの移行を支援するツールがOSSとして公開
2023年2月に開催されたSNOWDAY JAPANにおいて「7年使ったRedshiftから 6ヶ月かけてSnowflakeへ移行した話 〜手の内全部お見せします〜」というタイトルで登壇されていたREVISIO株式会社のエンジニアの皆様より、移行時に開発したツールがOSSとして公開されました。
以下のGitHubリポジトリで提供されています。移行の手順から各ツールがどのステップで役に立つか、日本語で細かく書いてあり本当にありがたいですね!
XMLをSnowflakeにロードする方法
Snowflake社のData Cloud AdvocateであるFelipe氏により、Stack OverflowのダンプされたXMLファイルをSnowflakeにロードする方法をまとめた記事が投稿されていました。
Snowpark for Java and Scalaがオープンソースに
各プログラミング言語を介してSnowflakeのコンピュートリソースを用いてSnowflake上のデータを操作できるSnowparkですが、JavaとScalaのSnowparkがオープンソースになりました。
Snowflakeが製造業のパフォーマンスを向上させるManufacturing Data Cloudを発表
Snowflakeがサプライチェーンのパフォーマンス向上、製品の品質アップ、工場の効率向上、を可能にするManufacturing Data Cloudを発表しました。
とはいっても、新しい新機能ではなくSnowflakeや各サードパーティ製品を組み合わせて構築をするものであり、すでに海外の製造業ではすでに導入が進んでいるものです。
例えば、Snowflake上で調達・工場の生産能力・販売注文に関わるデータを統合した基盤を構築したり、Snowpark for Pythonを用いて機械学習のモデルを構築し製品の品質向上に役立てる、などが挙げられます。
これは余談ですが、私も元製造業の人間なのでこのManufacturing Data Cloudはぜひ日本でも推していきたいですね!
また、このManufacturing Data Cloudに関してはFivetranも関わっていて、記事を投稿していました!
Snowflakeのクラウドサービスの概要・料金体系・コスト削減のテクニックがまとめられた記事
phData社より、Snowflakeのクラウドサービスの概要・料金体系・コスト削減のテクニックがまとめられた記事が出ていました。
クラウドサービス周りはユーザーからすると見えない部分で分かりづらさもあるため、クラウドサービス自体を知りたい方にもオススメの記事です。
OpenAI社はDWHにSnowflakeを採用している
これは弊社の社長である横田のつぶやきにより私も知ったのですが、ChatGPTで話題のOpenAI社は、DWHにSnowflakeを採用しています!
Databricks
商用利用可能なOSSのLLM「Dolly 2.0」をリリース
Databricksが商用利用可能なOSSのLLM「Dolly 2.0」をリリースしていました。私は日本人なので日本語の性能は気になるところですが、LLM周りは最近いろんな会社からリリースが出ていますね…
BigQuery
Google AnalyticsのレポートとBigQuery Exportの結果に差がある時の対策
Googleが公式に、Google AnalyticsのレポートとBigQuery Exportの結果に差がある時の対策をまとめた記事を出していました。
Google Analyticsの結果をBigQueryにエクスポートして分析するケースは非常に多いと思います。こちらの記事が役立つ人も多いのではないでしょうか!
Data Transform
dbt
dbt Cloudのジョブスケジューラが過剰にスケジュールされた不要なジョブをキャンセルするように
dbt Cloudのジョブは、ウェアハウス内のデータの増加と共に実行時間が長くなる特徴があります。
これまでのdbt Cloudのジョブは、例えば10分置きにスケジュールしていたジョブが20分かかる場合、1回分無駄にスケジュールをしてしまう仕様でキューが詰まってしまう事象があったようですが、このような重複ジョブを検知した場合、該当ジョブを削除してキューの詰まりを防止するように仕様変更されたようです。
dbt CloudでMarkdownとCSVのプレビューが可能に
dbt Cloudで、MarkdownとCSVのプレビューが可能になりました。シンプルにこれまでよりもdbt CloudのIDEが便利になりましたね!
私も簡単ですが試してみた内容を下記の記事でまとめております。
新機能に関するイベントを2023年4月26日(現地時間)に開催予定
dbt LabsのProductチームにより、dbtの新しいリリースと今後のリリースについて発表するイベントが2023年4月26日(現地時間)に開催予定です。
「Models as APIs」というdbt 1.5でリリースされる新機能や、dbt Semantic LayerとMetricFlowの連携の情報など、dbtの最新情報について共有されるようです。
How to Write a High-Quality Data Model From Start to Finish Using dbt
Analytics EngineerであるMadison Schott氏が、dbtで高品質なModelを書くための基礎的な事項をまとめた記事を出していました。
初めてdbtで開発をする方は、dbt Labs社のStyle Guideと併せてこちらの記事を読むと、良いdbtの開発が出来ると思います。
dbt-osmosisを利用した効率的なメタデータ管理に関する記事
株式会社10Xでデータエンジニアをしている@syou6162さんが、dbtを採用した際にビジネスメタデータ(dbtでのdescription
)の記述を自動化してくれるdbt-osmosisに関する記事を出していました。
実際dbtを採用すると、Staging層、DWH層、Mart層とレイヤーが分かれていた場合に各レイヤーごとに同じ名称のカラムがあっても都度同じdescription
の記述をしないといけないのが辛く感じる場面が出てきます。この際、dbt-osmosisを採用すると上流のModelで定義されたdescriptionを参照して、下流のModelのdescriptionを自動で入力してくれます。とても便利ですよね!
※dbt-osmosis、Pythonライブラリなのでdbt Cloudだと使えないのが辛いところ…
dbtでtarget modelに関連するmodelだけを実行できる「dbt smart run」をFivetran社がリリース
Fivetran社が、実行したいtarget moedelを指定すると、変更を行ったmodelの情報も用いて、必要最低限の上流のmodelだけを実行することが出来る機能をリリースしました。
※2023年4月19日時点、BigQueryのみサポートされているため注意です。
dbtのfreshnessの使い方についてまとめられた記事
Datafold社が、dbtで使用するデータソースの鮮度(freshness)を確認できる機能について、重要性や使い方をまとめた記事を出していました。
個人的にこの記事から得られた学びとしては、dbt_expectationsやdbt_utilsなどのdbt packageにも、データソースの鮮度を確認する事ができるテストが入っていると知れたことです。
Business Intelligence
Looker
Looker 22.6がリリース
2023年4月14日にLooker 22.6がリリースされました。
私が一番気になった所でいうと、数年前からLookerを使っていた方には懐かしいLegacy Dashboardsが完全に削除されました。
※また、今回の22.6からリリースノートがGoogle Cloudの他サービスと同じ形式になりました!URLも変更となっているため、ご注意ください。
Mode
Modeがインメモリ処理に使うDBをDuckDBに変更してパフォーマンスを向上
ModeはBIの製品ですが、インメモリ処理に使うDBをVoltDBからDuckDBに変更したことで、大幅にパフォーマンスを向上させることが出来たようです。
下記の記事には実際の速度比較表も掲載されているため、気になる方はぜひご覧ください。
Data Catalog
Select Star
テーブルやダッシュボードの概要ページをより見やすく更新
Select Starでテーブルやダッシュボードの概要ページを開いた時、所有者と人気度合いをよりわかりやすくするレイアウトに変更するアップデートが行われました。
Castor
OpenAI社のモデルを搭載したCastor AIの発表
Castorが、OpenAI社が提供するAIモデルを利用したCastor AIを発表しました。
発表されたCastor AIでは「Query Explainer」という機能が使えるようで、Castorでクエリ履歴を確認したときに、そのクエリがどんな処理を行ってくれるか自然言語で説明を行ってくれる機能のようです。
Quollio Data Catalog
Quollio TechnologiesがプレシリーズAラウンドで約2.2億円調達
私も以前試したことがあるQuollio Data Catalogを提供するQuollio Technologiesが、プレシリーズAラウンドで約2.2億円の資金調達を実施しました。
今後、Quollio Data Catalogのフルリニューアルも予定しているとのことで、楽しみです!
Data Activation (Reverse ETL)
Hightouch
施策の影響度合いをHightouch上で確認できる「Performance」機能を発表
Hightouchでは、マーケティング担当者向けの機能をまとめてCustomer Studioとして提供しておりますが、今回新しく「Performance」という機能がCustomer Studioに追加されることが発表されました。
私も下記の記事を見ただけですが、行った施策の内、どの施策がもっとも良い成果を得られたのかをHightouch上で確認が出来るようです。記事では、カート内放置アイテムに関する通知を3パターンに分けて行った時を例にPerformance機能について説明されていました。
IntelyCare社がHightouchを利用したComposable CDPの構築によりマーケティングコストを100万USD削減
看護師と医療施設をマッチングさせるサービスを提供するIntelyCare社が、Hightouchを利用したComposable CDPの構築によりマーケティングコストを100万USD削減したという事例が上がっておりました。
従来のCDPに対する課題感から、Hightouchのどういった機能を使ってマーケティングを行っているのか、詳細に書かれております。
Replacing iPaaS workflows with warehouse-centric data pipelines
Hightouch社のCEOのKashish氏がFivetran社のブログにおいて、「iPaaS(WorkatoやZapier)は、Fivetran&Hightouchに置き換えちゃおう」と提案する記事が出ていました。
WorkatoやZapierを用いたアプリケーション間の連携について属人化やカスタムコードなどの辛さを述べた上で、Fivetran・DWH・dbt・Hightouchを用いることで同じデータを複数の同期先に展開できる等のメリットについて述べています。
Reverse ETLの概要についてまとめられた記事
Hightouchはデータ基盤上の機能としては「Reverse ETL」を担う製品ですが、改めてReverse ETLとは何か、についてまとめられた記事が出ていました。
ETLとの違い、どういった時にReverse ETLが役立つのか、他のiPaaSやCDPなどのサービスとの違い、など幅広い観点でまとめられていますので、Reverse ETLについて改めて知りたい方にオススメの記事です。
Census
Data Activationにおけるデータモデリングの重要性とFivetranの機能を用いたモデリングについての説明
Census社が、Data Activationにおけるデータモデリングの重要性と、FivetranのQuickstart Data ModelsというFivetran側で用意した変換処理をすぐに組み込むことができる機能を用いたFivetran⇛CensusのData Activationの流れについて、まとめた記事を出していました。
データマーケティングにおいてどういったセグメントを切るべきかまとめられた記事
Census社が、B2Bのマーケターがどのようにターゲティングしてセグメントを切っていくべきなのか、5つの観点でまとめられた記事が出ていました。
Reverse ETLの用途としてマーケティング分野は特にニーズが多い分野であるため、マーケティング初心者の私にはとても参考になりました。
Data Quality・Data Observability
Acceldata
新機能がまとめられた記事
Data Observabilityのプラットフォームを提供するAcceldataが、Data Reliability、Spend Intelligence、Operational Intelligence、という3つの分野に分けて、新機能をまとめた記事を出していました。
最後に
この2週間ほどの間に、私が個人的に気になったModern Data Stack周りの情報をまとめてみました。
次回はGWも挟むため、2023年5月10日頃の投稿を予定しています!